We propose ClipFace, a novel self-supervised approach for text-guided editing of textured 3D morphable model of faces. Specifically, we employ user-friendly language prompts to enable control of the expressions as well as appearance of 3D faces. We leverage the geometric expressiveness of 3D morphable models, which inherently possess limited controllability and texture expressivity, and develop a self-supervised generative model to jointly synthesize expressive, textured, and articulated faces in 3D. We enable high-quality texture generation for 3D faces by adversarial self-supervised training, guided by differentiable rendering against collections of real RGB images. Controllable editing and manipulation are given by language prompts to adapt texture and expression of the 3D morphable model. To this end, we propose a neural network that predicts both texture and expression latent codes of the morphable model. Our model is trained in a self-supervised fashion by exploiting differentiable rendering and losses based on a pre-trained CLIP model. Once trained, our model jointly predicts face textures in UV-space, along with expression parameters to capture both geometry and texture changes in facial expressions in a single forward pass. We further show the applicability of our method to generate temporally changing textures for a given animation sequence.
translated by 谷歌翻译
脸部图像操纵方法,尽管计算机图形中具有许多有益的应用,但也可以通过影响个人的隐私或传播令人讨厌来提高担忧。在这项工作中,我们提出了一个主动的防御,以防止脸部操纵在第一处发生。为此,我们介绍了一种新的数据驱动方法,它产生嵌入在原始图像中的图像特定的扰动。关键的想法是,这些受保护的图像通过使操纵模型产生预定义的操纵目标(在我们的情况下均匀彩色的输出图像)而不是实际操作来防止面部操纵。与传统的逆势攻击相比,为单独优化每个图像的噪声模式,我们的广义模型只需要一个前向通过,从而运行幅度的序列更快并允许在图像处理堆栈中轻松集成,即使在智能手机等资源受限的设备上也可以轻松集成。此外,我们建议利用可分解的压缩近似,因此使产生的扰动鲁棒到常见的图像压缩。我们进一步表明,产生的扰动可以同时防止多种操纵方法。
translated by 谷歌翻译
在这项工作中,我们引入了削减(对对比和无监督的分割培训),这是第一个完全无监督的深度学习框架,以进行医学图像细分,从而促进了未经标记或注释的绝大多数成像数据的使用。将医学图像分割成感兴趣的区域是促进患者诊断和定量研究的关键任务。该细分的一个主要限制因素是缺乏标记的数据,因为在注释者之间获得每组新的成像数据或任务的专家注释可能是昂贵,劳动力且不一致的:因此,我们利用基于Pixel-的自学意义图像本身的居中补丁。我们无监督的方法是基于对比度学习和自动编码方面的培训目标。以前的医学图像细分学习方法集中在图像级对比度训练上,而不是我们的图像内贴片级别的方法,或者将其用作一项预训练的任务,此后网络之后需要进一步监督培训。相比之下,我们构建了第一个完全无监督的框架,该框架在以像素为中心的斑点级别上运行。具体来说,我们添加了新颖的增强,补丁重建损失,并引入了一个新的像素聚类和识别框架。我们的模型在几个关键的医学成像任务上取得了改进的结果,这是通过对视网膜图像的地理萎缩(GA)区域进行分割的任务进行了固定的专家注释的验证。
translated by 谷歌翻译
人的言语通常伴随着包括手臂和手势在内的身体手势。我们提出了一种方法,该方法将与目标语音音频相匹配的手势重新效果。我们方法的关键思想是通过编码剪辑之间的有效过渡的新型视频运动图从参考视频中拆分和重新组装剪辑。为了在重演中无缝连接不同的剪辑,我们提出了一个姿势感知的视频混合网络,该网络综合了两个剪辑之间的缝线框架周围的视频帧。此外,我们开发了一种基于音频的手势搜索算法,以找到重新成型帧的最佳顺序。我们的系统生成的重演与音频节奏和语音内容一致。我们定量,用户研究对综合视频质量进行评估,并证明我们的方法与以前的工作和基线相比,我们的方法与目标音频的质量和一致性更高。
translated by 谷歌翻译
尽管网络体系结构性能取得了重大进展,但对抗性攻击的敏感性使得深度学习具有挑战性地在安全至关重要的应用中实施。本文提出了一种以数据为中心解决此问题的方法。一种具有不同亮度值的非局部降解方法已用于从改良的国家标准技术数据库(MNIST)和加拿大高级研究所(CIFAR-10)数据集中生成对抗性示例。在扰动下,该方法在MNIST数据集中提供了多达9.3%的绝对精度提高,而CIFAR-10数据集则提供了13%。使用具有较高亮度值的转换图像训练会增加分类器的鲁棒性。我们已经证明,转移学习对于对抗机器学习是不利的。结果表明,简单的对抗性示例可以提高弹性,并使深度学习易于在各种应用中应用。
translated by 谷歌翻译
从自然语言监督中学习视觉表示,最近在许多开创性的作品中表现出了巨大的希望。通常,这些具有语言的视觉模型表现出对各种数据集和任务的强大可传递性。但是,由于缺乏易于使用的评估工具包和公共基准,评估这些模型的可转让性仍然很具有挑战性。为了解决这个问题,我们构建了高级版(评估语言的视觉任务级传输),这是用于评估(预训练)语言增强视觉模型的第一个基准和工具包。升华由三个组成部分组成。 (i)数据集。作为下游评估套件,它由20个图像分类数据集和35个对象检测数据集组成,每个数据集都用外部知识来增强。 (ii)工具包。开发了自动高参数调谐工具包,以促进下游任务的模型评估。 (iii)指标。多种评估指标用于测量样品效率(零射击和少量)和参数效率(线性探测和完整模型微调)。我们在https://computer-vision-in-the-wild.github.io/elevater/上公开发布leverater
translated by 谷歌翻译
我们提出了一种基于新型的深神经网络(DNN)近似结构,以学习测量的估计值。我们详细介绍了能够培训DNN的算法。 DNN估计器仅在通过通信网络收到的情况下使用测量值。测量值是通过网络作为数据包传达的,以估算器未知的速率传达。数据包可能会掉落,需要重新传播。当他们穿越网络路径时,他们可能会遭受等待延误。估计的工作通常假设对测量系统的动态模型的了解,这可能在实践中无法使用。 DNN估计器不假设动态系统模型或通信网络的知识。它不需要其他作品经常使用的测量历史记录。在线性和非线性动态系统的模拟中,DNN估计器的平均估计误差明显小于常用时变的卡尔曼滤波器和无气体的卡尔曼滤波器的平均估计误差明显小。 DNN不必为不同的通信网络设置单独培训。由于测量源和估计器之间不完美的时间同步而导致的网络延迟估计估计的错误是可靠的。最后但并非最不重要的一点是,我们的模拟阐明了导致估计误差较低的更新速率。
translated by 谷歌翻译
转移学习使我们能够利用从一项任务中获得的知识来协助解决另一个或相关任务。在现代计算机视觉研究中,问题是哪个架构对给定的数据集更好地表现更好。在本文中,我们将14种预先训练的Imagenet模型的性能进行比较在组织病理学癌症检测数据集上,其中每个模型都被配置为天真的模型,特征提取器模型或微调模型。DENSENET161已被证明具有高精度,而RESET101具有高召回。适用于后续检查成本高的高精度模型,而低精度,但在后续检查成本低时,可以使用高召回/灵敏度模型。结果还表明,转移学习有助于更快地收敛模型。
translated by 谷歌翻译
人工智能(AI)发展鼓励了许多新的研究领域,包括支持AI的东西(物联网)网络。 AI分析和智能范式大大提高了学习效率和准确性。将这些学习范例应用于网络方案提供了新的网络解决方案的技术优势。在本文中,我们提出了一种改进的数据视角来的IOT安全方法。可以使用AI技术分析IoT设备的网络流量。使用经常性神经网络(RNN)提出了对抗学习(ADLIOTLOG)模型,并对网络流量的网络事件序列进行注意机制。我们将网络事件定义为日志中捕获的协议的时间序列包的序列。我们在网络日志中考虑了不同的数据包TCP数据包,UDP数据包和HTTP报文,以使算法强大。分布式物联网设备可以合作攻击我们的世界,该世界正在延伸到智力互联网。时间序列数据包通过去除噪声并添加时间戳来转换为结构化数据。得到的数据集由RNN训练,并且可以检测彼此协作的节点对。我们使用了BLEU分数来评估模型性能。我们的研究结果表明,当网络不受攻击时,我们方法训练的Adliotlog模型的预测性能在存在的情况下降低了3-4%。 Adliotlog可以检测到对手,因为当存在对手时,模型被协作事件欺骗,因此使用偏置事件而不是良性事件预测下一个事件。我们得出结论,AI可以为新一代的事物提供无处不在的学习。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译